该内容已被发布者删除 该内容被自由微信恢复。
文章于 2023年2月17日 被检测为删除。
被用户删除
整理了一天的懒人盘,加了很多电子书资源专题,超过千本电子书资源,还在增加中。随着自动化工具越打造越多,后面开学了维护懒人盘也不会太费时间。
经常逛懒人盘的粉丝们肯定注意到,不止01模块每天新增软件
其他模块小懒人只要看到对应的都会整理好放上去,如影视模块,磁力网站模块(磁力网站好像挂了很多,最近补一些) 还有电子书网站模块,整理了比较常用的好用的电子书网站,原本想在号搜开发一个接口,供粉丝查询自动回复电子书电影等资源,想想还是算了,一个是没钱没技术,另一个是不想被微信判违规。(这里纠正一下,现阶段爬虫被抓的主要是涉及到公民隐私数据这块, 别听那些博眼球的公众号发文乱说) 懒人盘地址:http://lazyman.ys168.com/(阅读原文直达) 回归今日主题,在懒人盘05模块分享的电子书网站里面,看到三秋书屋这个挺不错的。看了一下页面结构也不复杂,试了一下能批量下载,就给大家按分类整理了一下到懒人盘。虽然这次也是python自动化批量上传,可目录整理分类也累坏小懒人了。
以下为分类介绍
在懒人盘12模块,历史人物主题
第一项就为大家整理好目录了,也可长按下图查看目录
国内外历史故事,名人传记,因懒人盘目录限制,只上传近三百份电子书。
很多法律类的电子书,还有很多法院案例,需要的可以去查看目录,中意的到懒人盘下载。在13模块。
国内外经典哲学书籍,还有宗教类。
在懒人盘的电子书14模块
各种投资类书籍,估计体验群会有很多群友们感兴趣。在15模块。
最近懒人星球也有群友分享了很多投资入门的,感兴趣的群友自行去查看下载。
后面的心理科学主题,医学养生主题,因为幕布分享的次数限制,就不在今天的推文贴二维码了,明天也会把完整的目录链接放在懒人盘对应主题下面。166本心理类+108医学养生类书籍,等你发现~ 晚点有时间再多加点主题,比如英文原版书。整理好辛苦,希望大家受益哈哈。 最初的想法是利用幕布,直接把网盘链接放在标题下面,这样方便大家查阅存储和分享,可是幕布不支持标识符分级,手动加又费时间。所以只在幕布放目录,在懒人盘放云盘了。 三秋书屋(https://www.d4j.cn/)这个网站挺良心的,大家有能力的可以去打赏支持,而且网站的文章还有内容介绍啊这些。原本要贴源码教大家怎么爬它的,但担心给人家服务器造成负担,这里只聊一下思路。
利用BeautifulSoup解析完selector筛选器抽出链接,链接在href下,利用get("href")抽出。
上面三个步骤用三个函数写完,嵌套在一起就能实现网盘链接获取。在构造页码循环就能批量获取链接。可以打印也可以存到数据库中。 上面是思路会不会有点绕。这样,给出第一个函数代码,利用它可以爬文章详情页链接。
运行上面的代码,控制台会输出文章详情页链接
完整代码就不贴了,别给人家服务器造成太大负担。毕竟分享电子书挺公益性质的,小懒人做过和懒人影视,当然懂。 懒人盘里贴的书籍网盘都放着它的网站。算是帮忙打广告了。 点击阅读原文直达懒人盘,这么多电子书,挑些阅读吧,没必要屯太多做松鼠党,要的时候再下。后面研究一下用python批量保存网盘,给大家做份合集也不是不可能,最好做个工具给大家。
早上体验群新增了曹将密圈的资源,pdf做的还挺精致的。 偶尔分享些在懒人盘吧,希望大家多多支持小懒人~~
最近土澳空气质量太差了,不想出门就顺便多给大家分享。昨晚戴口罩出去跑步有点难受,原本好好的环境变成这副鸟样,也是无语。最近澳大利亚政府又各种卡中国博士留学生的签证,fxxk The Government of Australia~ 最后希望懒人盘增加的这几千本电子书对你有帮助~ 打赏会自动回复一份小礼物~
其他
懒人盘新增几千本电子书,再讲一下用python爬虫思路
懒人盘
电子书资源
历史人物主题
人文社科主题
哲学宗教类
金融商业类
心理科学主题
爬虫思路和部分源码分享
1 在主页爬详情页链接
2 详情页获取下载页链接
3 下载页获取网盘链接和提取码
import requests
def get_book():
url = "https://www.d4j.cn/"
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"
}
web_data = requests.get(url=url,headers=headers)
soup = BeautifulSoup(web_data.text,'lxml')
links = soup.select('#main > article > div > div.kratos-post-inner-new > header > h2 > a')
for i in links:
link = i.get('href')
print(link)
if __name__ == '__main__':
get_book()
额外说一句